今天為了和舍弟討論lab meeting要報告的文章起了個早,詳讀一篇NLP paper並做摘要整理就到午餐時間了~ 下午則又花時間閱讀英文新聞,整理晚餐後的GR_group英文讀書會的報告材料,21:00才正式開始弄這篇文章,真的有點力氣用盡的感覺呀~~~ 有點充實的周末,但有事情忙碌挺好的!
1.EfficientNet解決的問題
2.EfficientNet模型介紹
(1)該模型提供同時調整多個維度(深度、寬度、輸入解析度)的設計:
突破過去研究只能一次調整一個維度的限制,過去須逐一調整維度原因在於維度變化複雜型高,在沒有明確通用準則下,只能採取在每次訓練任務逐一調整維度的試誤法(trial and error method),這將十分沒有效率。
(2)提供較小型、運算速度快且預測良好的模型架構:
在ImageNt dataset取得很好的預測表現,且模型較當時著名的的GPipe參數數量
少8.4倍且運算快6.1倍。
圖片來源
(1)模型放大(Model Scaling): 複合式模型縮放(compound model scaling)
依照一個固定比例來同時進行三個維度(網路深度、網路寬度、解析度)縮放(Scaling Dimensions)
經過作者實驗結果(上圖),可得到最適同時調整此三個維度比例如下:
深度:
寬度:
解析度:
模型所需計算資源:
N∈{0, 1, 2, 3, …}, N=0為Baseline Model。
作者實驗單一和複合式模型縮放的預測表現(下圖),可知複合型縮放有明顯提升模型預測表現。
圖片來源
(2)挑選良好Baseline model:
選擇良好的Baseline Model,才能有效發揮擴充模型的效果,作者採取自動化模型結構搜尋法(Neural Architecture Search),選取Baseline model(EfficientNet-B0),在對Baseline model使用複合式模型縮放,產生了7個擴充模型(EfficientNet-B1~ EfficientNet-B7)。
完成EfficientNet模型架構學習。
學習Pytorch預訓練模型在競賽資料上操作。
參考:
心得小語:
研讀完參考連結的文章內容後,發現大家對EfficientNet這個模型都有詳盡介紹,自己能夠貢獻的部分實在不多,所以決定選取重要的架構作介紹與紀錄,詳細論文細節就請大家研讀原始論文和參考連結的資訊。
今日工時: 50mins*2
不要過分擔憂模糊不清的未來,只需為現在去努力和盡心盡力
Don’t worry too much about the ambiguous future, just make effort for explicit being present.